home *** CD-ROM | disk | FTP | other *** search
/ The PC-SIG Library 10 / The PC-Sig Library - Shareware for the IBM PC and Compatibles (PC-SIG)(Tenth Edition Disks 1-2804)(1991).iso / PC_SIGCD / 07 / 3 / DISK0731.ZIP / WORDS < prev    next >
Text File  |  1985-03-31  |  1KB  |  35 lines

  1.                      WORDS
  2.  
  3.  
  4.      Words have a precise meaning in LOCATE.  A 
  5. word is a sequence of letters with no 
  6. intervening punctuation or digits.  In the text 
  7. "March 14, 1980", the only word is march.  Case 
  8. is not significant and "MARCH", "march", and 
  9. "MaRcH" are all the same word.  In the text 
  10. "Pascal86", the only word is "pascal".  INDEX 
  11. does not distinguish between proper nouns and 
  12. regular words.
  13.  
  14.      Words of less than three characters are 
  15. ignored.  Words of more than seven characters 
  16. are not distinguishable if the first seven 
  17. match. "Democracy" and "democratic" are 
  18. considered to be the same word.
  19.  
  20.      Some words occur frequently in all 
  21. documents and consequently do not serve to 
  22. distinguish the contents of files.  If indexed, 
  23. these words would use up disk space, and would 
  24. also contribute to the "false hit problem".  
  25. INDEX uses a common word list to ignore certain 
  26. words.
  27.  
  28.      LOCATE distinguishes a total of 4093 words.  
  29. Most people use about three thousand words in 
  30. "common usage" and perhaps 30,000 words in 
  31. academic or technical usage.  Proper nouns can 
  32. extend these numbers significantly.  The  
  33. selection of the number 4093 is a compromise 
  34. between speed, storage, and the number of "false 
  35. hits".